我们在佩恩 - 赫尔辛基解析的早期现代英语(PPCEME)中的第一个解析结果,是一个190万字的TreeBank,这是句法变化研究的重要资源。我们描述了PPCEME的关键特征,使其成为解析的挑战,包括比Penn TreeBank中更大且更多样化的功能标签。我们使用伯克利神经解析器的修改版本为此语料库提出了结果,以及Gabbard等人的功能标签恢复的方法(2006)。尽管其简单性,这种方法令人惊讶地令人惊讶地令人惊讶的是,建议可以以足够的准确度恢复原始结构,以支持语言应用(例如,寻找涉及的句法结构)。然而,对于函数标签的子集(例如,指示直接演讲的标签),需要额外的工作,我们讨论了这种方法的一些进一步限制。由此产生的解析器将用于在网上解析早期英语书籍,一个11亿字形的语料库,其实用性对于句法变化的效用将大大增加,加入准确的解析树。
translated by 谷歌翻译